查看原文
其他

从推荐推理奔向未来AI

徐潇然 DataFunTalk 2021-04-25

分享嘉宾:徐潇然 Hulu 研究员

编辑整理:徐潇然

内容来源:DataFun AI Talk《从推荐推理奔向未来AI》

出品社区:DataFun

注:欢迎转载,转载请注明出处。

看到题目,很多人会问:推荐为何需要推理?推荐推理和AI有何关系?为什么说是未来的AI?所以,这里我要做的,不仅是回答什么是推荐推理、为什么要推荐推理,还要讲清楚它和未来AI的关系,而且后面这部分才是重中之重的。

什么是未来AI?当然是强AI,或者称通用AI。我们不会希望十年后的AI产品,仍局限于人脸识别、物体检测、语音识别等。为了实现强AI,我们决不能仅满足于当前AI所取得的效果,而要大胆地think out of box,想象并描绘你心中的强AI应有的特征。对于我来说,强AI应该具备这样的能力:推理能力、类比能力和归纳能力,从具体的现象中抽象出常识性的知识和法则,并运用之去指导具体的实践,还有想象力和创造力,最后是意识。对,这些能力都是我们人类具有的能力,作为宇宙中目前仅知的智慧体,我们不希望自己是孤独的,也不要傲慢地认为自己是唯一的那个特例。我们如果相信人类所代表的智慧具有某种普遍真理,为什么不认为未来AI也必然走上这一道路呢。

我们需要首先建立信心。对于强AI这个看似遥远的目标,我们其实可以从当下飞速进展的AI研究前沿获得启示。我们要去翻阅近年AI顶会NeurIPS、ICML和ICLR的论文,要去追踪顶级研究机构DeepMind、MILA、FAIR和Vector Institute等的工作,要去聆听活跃在研究一线的大佬们发言,然后结合自己手头的工作,更要超越手头的工作,脚踩大地、仰望星空,才能将隐藏在千头万绪中的启示,在经过我们深思后,归纳出或将触及未来终极人工智能的““道”之一。

招式万变,心法恒一。在强AI的层面上思考,不是“技”或“术”能解决的,不是要讨论用一个什么新的神经网络层,或是换一个什么新的目标函数,而应该从“道”这个更本质的层面去探索破解AI的秘密。

这里的“推荐推理”,是我思考的起点而不是终点,我所分享的也不是在Hulu如何具体做推荐推理,也就是说,任何人可以选择不同的起点去思考去探寻未来AI之路,但是我们仍然可以殊途同归。

先看两个例子,这是Hulu推荐系统在产品端实现的具体形态。左边的图为“store-shelf”,不同栏目下有针对用户的个性化推荐结果,包括电视剧、电影、脱口秀等;右边的图称为“auto-play”,也是个性化推荐的结果。事实上,抛开Hulu的例子,纵观国内外的互联网和移动互联网产品,推荐系统的形态基本大同小异,就是针对不同的用户或用户群,给出分数从高到低的推荐排序,取Top-K的项展示出来,其中评分的过程有受纯算法控制的部分,也有受人为策略干预的部分。然而,无论这些系统呈现出如何的花样,本质始终是一个“货架”。

推荐系统的意义,是从仓库货架到个性化货架,因为展现给用户的货架大小有限,所以必须把用户最可能购买或最可能点击的放在里面。于是,每一个推荐系统的算法工程师,只关心一件事情——如何提高点击率(CTR)。如果我是一名推荐算法工程师,终有一天,我会感到厌烦,停止手下的键盘敲击,抬起头,重新审视推荐这项工作,我会疑问:推荐的本质难道就是从货架到个性化货架吗?如果这不应该就是推荐的本质,那么这可能就是一个束缚我们的程式。

我们回到前互联网时代的商业社会,当提到“推荐”二字时,我们一定会想到“销售”。我们不妨做一下类比,在电子商务未出现的年代,设计一个线下纯人工的“推荐系统”!假想你是一个商店的店员,你的老板想卖出更多的货,他要你想办法。这时,你会根据自己的销售经验,把用户可能最需要的商品列出一个清单,把它们一一摆在前排或者刚进商店门的位置,并尽可能地做一些吸引眼球的促销广告,留住你的顾客,引导他们去购买,即使不买也多来转转提升人气,就像互联网上增加流量。

既然我们谈到了“销售”,我们不妨从销售的角度出发,来重新思考推荐。一个店员,如果仅仅摆弄货架,不会招揽顾客,那么他的老板一定不会高兴。市面上有很多讲“销售艺术”的文章,我摘录了几条:

1. 内容搭建关系,关系基于信任,信任驱动收益

2. 你的顾客不会为了支持你的公司而购买你的产品;他们购买你的产品只因为你的产品让他们的生活变得更好。因此,你想卖出去点什么,你需要解释你为什么能帮到他们。

3. 如果你有一个好的故事要讲,那么尽量用一种真实的口吻和你的顾客对话,而不是去说教。你需要吸引他们,他们才会去听、去学、去信任你。

4. 销售员可以花上大量精力来促销一款产品,但是除非顾客主动地来相信你讲的故事,什么事情都不会发生。

5. 悖论往往是,你提供的信息越多,越多的人会来购买。

总之,这里没有一条教你如何摆货架,都在教你:如何讲好产品的故事?如何解释给消费者这款产品能够帮助他们?如何让你的顾客相信你的故事从而更愿意买你的产品?回到推荐系统上,想想这里到底缺失了什么?

我不妨再举一个例子,就是人类社会最古老的销售——销售信仰。设想一个摆满各类宗教的货架,我们要为它设计一个推荐系统,货架上根据不同地区不同用户群的口味排列好宗教产品。你觉得怎样?是不是太荒唐了,哪里有人这么干。事实上,为了让用户购买“信仰上帝吧”,需要解释“上帝是谁”、“为什么要信仰上帝”以及“如何信仰上帝”,于是有了圣经,有了亚当和夏娃的传说,基督教的神学体系构建起来,然后还要传教士们不厌其烦地去传教,尽可能地说服他见到的每一个人去信仰上帝。其他宗教,大致也是这样。因此,一个好的推荐系统不应当局限于摆货架,还应当扮演起一个好的传教士,一个好的推销员。总结起来,一句话——提供解释,说服别人。

什么是“解释”?解释,一端是被解释的客观事实,一端是解释给的主观个体,这构成了解释在功能上的两重性:客观性和主观性。客观性,从解释某个事实的角度出发,需要解释在某种程度上能被客观事实检验,不仅能回答“为什么过去是这样”,还能预测“未来是什么样”;主观性,从让人理解并接受的角度出发,解释本身要简洁、易懂、自洽,甚至某种意义上,解释不一定要吻合真相,因为很多情况下真相是不可知的。如何理解解释的两重性?这里有一个例子——股票评论员,股票评论员说的不见得符合事实本身,很多情况下他确实不知道幕后真相,但是这不妨碍他提出合理的解释并让听众接受。

有一次听刘慈欣讲科幻,在谈到“日心说”和“地心说”时,他说了这么一段话让我印象很深刻:

“日心说为什么代替了地心说?

我们想当然地认为肯定是日心说,

它更好地解释了自然的现象,

它更好地预测了天体的运行,

所以它最终被科学所承认代替了地心说。

但事实上真的没有这么简单,

日心说刚刚出现的时候,

它对天体的预测、它的计算、它的准确度

并不比地心说高多少

所以说在真正面对自然这个证据面前,

日心说并没有对地心说占有压倒性的优势。

那么它占有压倒性优势的是什么呢?

为什么它在相当长的时间里

在观测上的和天体计算上的准确度还不如地心说的

这种环境中渐渐得到了承认呢?

它是凭着什么优势来得到承认呢?

它的优势就在美学方面。

就是说地心说是极其复杂的一个学说,

它所建立的太阳系的行星模型是极其复杂的,

轨道套着轨道,

它就是用这种很复杂的不断修补的数学模型,

来达到它对行星运行的一个解释和一个比较准确的预测。

但日心说它没有这样复杂的模型,

它是一个十分简洁的系统,

就是太阳在中心,然后几大行星围绕它旋转。

它的计算也很简洁。

所以说这个日心说它最后得到承认,

它胜利在美学上,而不是在科学上。

这就说明了美学在科学中的重要,

就说指导科学家的第一个指导意识——

它是美,而不是说是真”

回看我们当下的推荐系统,还确实有很长的路要走。现在的推荐系统,可以把某用户可能喜欢看的《西部世界》排在置顶位置,却不能告诉他必看的N条理由,当用户需要更多解释时,推荐系统就变成了一个哑巴,就像一个低着头不开口的推销员,只在不停地往用户手里塞传单。但是,作为《西部世界》的忠粉,如果我来推荐这部美剧给我的朋友看, 我心里肯定已不下N条理由,而我的朋友也一定会问我为啥推荐。此外,我们往往会受到一些影评的影响,然后决定去看某部电影或电视剧。

分析推荐系统缺陷的根源,发现现有推荐模型本质上是一个黑盒,这也是很多机器学习算法共通的问题。推荐算法的这支黑盒家族,可以追溯到协同过滤算法,或者更反映其数学本质的矩阵分解、因式分解机;随后,深度学习的兴起,刮起了一波embedding之风,有word embedding如Skip-gram等,graph embedding如DeepWalk、TransE等。于是,我们倾向于尽可能地把一切都embedding化,推荐系统中用户有用户embedding,电影有电影embedding,标签有标签embedding;再细些,每个属性都有自己的embedding,80后90后00后各有一个embedding,悬疑动作科幻各有一个embedding,周一到周末再加节假日也各有一个embedding;再然后,我们把这些embedding,像下作料一样,多多益善,放在一个大锅里,称它为——Deep & Wide。我不是要否定这种做法,从预测的目的看我反而支持这种做法,很多时候确实管用;然而,除了预测,我们需要的还有解释。

解释长什么样?形式上解释也具有两重性,体现在确定性和不确定性这两个方面。怎么理解?首先说确定性,对于一个解释系统,确定性体现在它的离散性和结构性这两点。举个例子,当你称赞他人时,上前问道:“你做得太棒了!你是怎么做到的?”,然而你可能会收到这样的答复“这个……我也不清楚,凭感觉吧”。他或许在撒谎,不想分享给你听,但是也有可能他确实不知道,或者说不出来。一句话就是:内心有料但无法名状。他能感觉到,但是解释不出来。解释清楚一件事是费脑子的,就像把琢磨不定的乐曲旋律,化作一个个具体的音符,把信息浓缩成一个个离散的符号,固定下来,不让它们在变幻不定中消散掉,就像南北方言可以听上去完全不同,但是对应的汉字都是一样的。这点很重要,在一个黑盒系统的函数拟合学习中,我们通常采用随机梯度下降的方法,在一个高维的梯度场中,只感知到当前点及邻近区域的梯度信息,周围稍远一点的都是变幻不定的漆黑存在,前面几步的路未知,过去几步的路消失在漆黑中,我们只是顺着梯度下降、下降,我们关心的只是让损失函数最小,至于我们是怎么来到当前状态的,我们不需解释,也无法解释。任何的解释,都需要是清晰确定的,需要经得起时间的考验,而变幻连续的形态无法像离散形态那样稳固,一个像液态的水,一个像固态的冰。而且,离散且有限的形态,更容易让人读懂,更容易传播分享,并且在这一过程保持自身的含义稳定不变,如我们使用的各种语言符号。除了离散性,解释系统还具有结构性,即按照一定的结构模式,将有限离散的符号排列组合成一个复杂的系统,从而尽可能表达出无限的含义。

解释的另一重性质是不确定性,这体现在解释系统的概率性和歧义性上。现实世界并非由二值逻辑构成,即使二值逻辑的语言表达起来最清晰最直白,如“他是坏蛋,她是好人”。为了更准确地反映现实,在解释中引入概率或体现概率的字眼是必要的,如“他不一定是坏蛋,她可能是好人”。再说歧义性,我们可以把它理解成精简表达的代价,听上去是一个缺点,但是生活中我们会乐此不疲。一点是,我们都懒得说长句,在当前上下文没变化的情况下,我们会遵循能省则省的原则;另一点是,歧义性也给我们带来了很多乐趣,想一想“小心地滑”(“地”作名词)和“小心地滑”(“地”作助词),不正体现了语言的魅力所在吗,也许这是智慧生物独有的特权吧。

解释的样子最终由解释的语言来确定。对于我们人类来说,主要就是我们平时使用的语言,如:汉语、英语、法语等。但是,对于机器来说,我们需要从计算模型的角度思考“解释”,根据前面所说的性质——离散性、结构性、概率性,不难发现解释的语言正对应到两类经典的AI学派:符号学派和统计学派。符号逻辑,这一听上去很远古的领域,在AI研究的早期阶段最受推崇,其中研究最广的包括谓词逻辑和一阶逻辑。上图中有一个一阶逻辑的例子。概率图模型,在深度学习火起来前,可能是机器学习界最受推崇的方法论之一,因为引入了概率,所以比符号逻辑的方法论能更好地拟合实际数据并提供解释,通常采用最大似然或最大后验的方法进行优化,具体的方法包括:马尔科夫随机场、话题模型、贝叶斯网等。当然,你可能会想到,何不把二者结合起来,造出一个新方法,名字可以叫“概率逻辑”。事实上,这种方法也已被人想到了,学名叫Probabilistic Logic Programming。

如果进一步观察符号逻辑和概率图模型这两种形态的语言,可以发现它们在某种程度上都构建了自己的图结构,组织起各自体系中的语义概念(符号的含义)或语义状态(当前上下文)。首先,每个节点代表了一个最小的语义概念或语义状态;其次,一个很重要的概念——关系型归纳偏置(Relational Inductive Biases),通过图中各类型的边刻画出来。

近年来,关系型归纳偏置的概念被人们关注,让我们看看2018年6月DeepMind集众作者合写的一篇论文——Relational Inductive Biases, Deep Learning, and Graph Networks(关系型归纳偏置、深度学习与图网络),文中提到:关系型归纳偏置会是连接深度学习与知识推理、规划的一个关键桥梁,而打通这一联系的实施者就是持有丰富图结构信息的图网络。一方面,图网络是深度神经网络的延伸,继承了神经网络的超强拟合能力来从数据中发现规律;另一方面,图网络因持有的图结构信息,具备基于关系的组合泛化能力,这为塑造解释性的语言提供了前提,也就是说,构成解释语言的第一步要有图。

某种程度上说,图是一种可解释万物的语言基础,从分子结构到弹簧系统,从多体系统到刚体系统,从句法树到场景图片,关系无处不在,多种关系交织在一起形成复杂的图。

我们回到推荐推理这个任务中,我们要做的是给推荐结果提供解释,比如:已知某个用户喜欢《钢铁侠》,解释推荐系统为什么给他推了《蚁人》。我们把解释推荐结果的过程,抽象成一个在给定知识图谱上寻找从起点到终点的路径,作为我们解释语言的基础。在这个例子中,我们发现之所以给喜欢钢铁侠的用户推荐《蚁人》,是因为这两部电影都属于漫威的复仇者联盟中的超级英雄,也就是说,在这个知识图谱中,我们找到由三条路径构成的子图,一端连接着“钢铁侠”,一端连接着“蚁人”,中间分别经过了“超级英雄”、“漫威”和“复仇者联盟”。

然而,不是随意连接“钢铁侠”到“蚁人”的子图都构成一个好的解释。判断解释好坏的标准有一定的主观性,但是大体上可以归结成三个指标,这里给出三个解释的坏例子。首先,是不关联的例子,这里“钢铁侠”和“蚁人”间没有被连接,“钢铁侠”虽然连着“富豪工程师”和“人工智能”这两个标签,但是这和“蚁人”没有半毛钱的关系,同样“蚁人”连着“盗窃大师”和“量子领域”,这和“钢铁侠”也没有任何关系。其次,是没重点的例子,虽然“钢铁侠”和“蚁人”被连在一起,而且由很多很多条路径相连,但是可读性极差,也没有抓住导致“蚁人”被“钢铁侠”推荐的关键原因。再次,是非重点的例子,这里举的是钢铁侠和钢铁侠2的例子,我们发现有很多小角色演员作为中间节点把两部电影连接起来,这当然不是我们想要的结果。

寻求“起点-终点”的路径解释,不能被简单地理解成图论中的关于图本身的算法问题,比如寻找最短路径是一个纯的图本身的算法问题,这种问题不是学习问题(Learning Problems),也就是说,给定一个图,算法立刻就能执行起来计算出结果,不需要训练。在我们的问题中,图只是一个环境,或者说只提供了一个场地。想像一下,在一个二维的网格图上,我们为这个二维世界提供一个看不见的力场,在外力的作用下,红色起点位置上的物体被一格一格地移动,经过一段时间后,转移到绿色位置上。这个力场随时间和地点都在变化。现在,假设我们手上的数据只有起点和终点,中间的轨迹信息丢失了,我们需要根据一组“起点-终点”的训练数据推理出物体的运动轨迹,从而探测到力场的变化。因此,图是我们执行任务所处的世界,而这个看不见的力场才是我们执行任务的目标。力场的变化独立于图的具体结构,力的方向可以随时间而不同,也可以随地点而不同。给定起点,导致终点的原因既包括图的结构,也包括力的作用。

进一步地,我们发现物体的运动轨迹实际反映了起点和终点间的因果性关系。在t=0时的点,由于力的作用,一个时间步后移动到t=1时的点的位置上;同理,t=1时的点在力的作用下,一个时间步后移动到t=2时的点的位置上;以此类推,t=T时我们得到终点的位置。推理轨迹的过程,实际上是通过模拟物体运动,寻找起点和终点间因果链的过程。

我们总结一下推理、解释与因果性这三者的关系。因果性体现在世界运行的客观性上,推理体现在人类认知的主观性上。因果性是万物演化中内在因素相互作用的时间轴规律,区别于它们在时间轴上的呈现(如相关性)。推理是人们捕捉并解释各因素相互作用内在规律的主观工具。推理不仅要捕捉,即很好地拟合时间轴上的呈现,更要提供解释,超越数据拟合的层面向内在延伸,试图模拟各因素相互作用的演化过程。因此,推理不仅要很好地反映数据呈现的客观统计规律,还要提供主观的世界观构建,作为提供解释的基础。推理的语言形式可以采用传统的逻辑规划或概率推断,也可开发新的基于图结构的方法。

挖掘因果性实际是在回答why而非what的问题,不是给出起点预测终点是什么的问题,而是给出起点回答为什么是这个终点的问题。这就引出了关于why的科学,一门关于解释而不仅仅是预测的科学。这里我推荐Judea Pearl的一本新书《The Book of Why》。Judea Pearl是我们熟知的贝叶斯网之父,2011年图灵奖得主。

因果性学习和传统机器学习的区别在哪里?传统机器学习,通常认为是“learning from data”,即由数据驱动学习的过程。这种过程是被动的,训练模型的表现严重依赖于手头的数据,现在越来越多的学者认为这种学习只学习到了表明的统计规律(Superficial Statistics),属于感知层面的学习,尚未到逻辑推理、归纳抽象这种认知层面的学习。因果性学习与机器学习最重要的两点区别——干预(Intervention)和反事实(Counterfactual)。

什么是干预?这里举两个例子。第一个例子,为了验证某个猜测,我们设计实验时都会安排一个实验组和一个控制组,实验组就是我们干预的一方,控制组是未加干预的一方,这样做的意义是作对比,实验组中只修改某一个变量,维持其他变量不变,看看结果中实验组一方是否因这个变量的修改而与控制组产生差异,这不就是我们很多人熟悉的A/B test吗;第二个例子,想象一下婴儿学习,是一个与周围环境不停交互并建立对世界认知的过程,婴儿这动动那试试,干预一下环境,看看会造成什么样的后果,是不是符合原来的预期,还是发现一个惊喜。

什么是反事实?简单地说,就是构建一个想象世界。这里问你:一个人从十米高的楼顶跳下来会怎样。你脑海里会想象出一个三、四层高的楼,一个人站在楼顶上,如果你是一个细心的人,你会注意到地面的情况,是土地?是沙堆?还是水泥地?但是,你不会为了得到答案亲自去做这个实验,因为代价太大了。为什么你会得出代价太大的结论?因为你已经在想象世界里完成了这次跳跃,得出非死即残的结论。然而,问题换作:一个人从一米高的台子跳下来会怎样。你很可能去亲自做这个实验,其实你已经在想象世界中快速做完这个实验了,得到的评估结果是——没问题最多崴到脚脖子,所以你才敢做这个实验。在想象世界里,我们可以做更多的事情,没有风险,也无需等待很长的时间,时间进度条任你拖动。说白了,在想象世界的这个过程就叫——思考,思考不同于感觉,是受制于逻辑约束的思维推演,可以进行各种假设性干预。

我们把干预和反事实放在一起,举一个例子,问:是公鸡叫醒了太阳吗?回答“是”的理由是,每次听到公鸡打鸣,然后就看到太阳升起,所以是公鸡打鸣造成了太阳升起。直觉上,这显然是一个错误的结论。怎么证明是错误的?我们可以用反事实干预来证伪。假设有一天,我们把所有公鸡都吃光,当然这不可能发生,所以是反事实的,我们假设会发生,然后问自己:我们还会看到太阳吗?显然,我们知道,太阳会照常升起。

想象世界对人类来讲有多重要。这里,我可以推荐一本书《人类简史》,书中讲到人类文明的诞生源于人类的那场认知革命,认为人类从所有动物中脱颖而出的一次跃迁,就是对想象能力的掌握,可以想象那些真实世界中不存在的事物,那些抽象的或者虚无的概念,人类才有了从未有过的强大的组织动员能力。

我认为想象世界与真实世界不同,真实世界是物理的、连续且可无限细分的(暂不较真到微观量子如夸克层面),想象世界是概念的、离散的和关系化的。因此,在人脑的想象世界里,应该有一份知识地图,由一个个概念节点连接而成,构成一个概念化的网络世界。注意,这个网络世界不同于大脑的神经网络,不一定存在物理意义上的对应,但是一定存在于某个抽象层面上。想象或者思考的过程,就是不断调用和检索这个知识地图的一些部分,持续在其中导航的过程,从一个节点(如起点)沿着概念网的边寻找另一个节点(如终点)。导航,从某种角度看,就是一个不断施加干预的过程,即不断做出一系列的选择,边选择、边计算、边观察,从而主动地影响终点的位置,获得预期的结果,或者验证某种选择下的结果。由于是发生在概念网这个想象世界里,这一系列选择的过程是虚拟的。

在知识地图中做导航,整个过程可以描绘成一连串指引方向的动作构成的序列。因为导航发生在想象世界里,想象中的动作,本质上就是我们的注意力,因为投放了注意力,所以我才有意识地这么想,完成想象的过程。进而,想象中的动作序列,构成了我们的注意力流,这样就引出了意识流的问题。

注意力和动作的关系,好比是一对双胞胎,一个发生在想象世界,一个发生在现实世界。在太极哲学中,有句关于太极拳的心法——用意不用力。这里的“意”,是意念的意思,指的就是我们的注意力;这里的力,是发力的意思,指的就是我们的实际动作。

实际的“发力”,实际的动作,会影响环境的变化,进而验证真实世界中的因果关系;而我们的注意力,既然扮演了想象世界中动作的角色,也能影响想象世界中的环境变化,这个环境就应该指我们当下的思考状态。在我最新的一篇论文中,我初步研究并验证了注意力流的干预效应。

最后,十分推荐大家读读Bengio教授的一篇文章《The Consciousness Prior》以及他去年11月份来中国演讲的PPT。他在表征学习与意识上做了长时间的深入思考,认为意识可能对应于大脑世界中那些低维且抽象的物体表示和约束,在表征学习的过程中逐渐抽象解离而获得的更短更精炼、富含语义的符号和概念,以及这些概念间的因果等关系。

这些概念的形成和提炼,本质是根据当前上下文主动投放注意力的结果,从茫茫的表征空间中筛选出最具信息价值的表示并映射到某个符号,形成概念,构成我们的意识。

简单地归纳一下,在表征空间中存在着两个层面的表示:一个是处于下面一层的高维表示,蕴藏着丰富的潜在概念或因子,对应非意识的状态;一个是处于上面一层的低维表示,是施加注意力后对非意识状态的提取,形成了有意识的状态。形成注意力的上下文,既有非意识状态,又有意识状态。

我构造了一个金字塔重新作阐释,从下往上依次是潜意识层、意识层和注意力层。潜意识层和意识层都会影响注意力的形成,潜意识层为意识层提供丰富的信息候选,注意力层会干预并影响意识层活动的走向。潜意识层对应了系统1(System 1),直觉的、快速的、无意识的、非语言符号作载体的,其实正代表了深度学习模型的特点,是对场的、流形的、连续非离散的建模;意识层和注意力层对应了系统2(System 2),逻辑的、较慢的、有意识的、有语言符号作载体的。

最后,是我关于解释的智能本质的一点总结。

作者介绍:

徐潇然,Hulu研究员。毕业于北京大学智能科学系,2013年赴美国加州大学洛杉矶分校学习人工智能专业,两年博士学习后弃学回国创业,而后在360人工智能研究院做深度学习算法工程师,现在Hulu北京的研究员岗位上从事推荐推理方向的深度学习和强化学习研究,研究点主要关注在具有可解释性的可微推理(Differentiable Reasoning)和随机推理(Stochastic Reasoning),先后提出了Backprop-Q随机计算图上的通用反向传播计算框架,和基于注意力流(Attention Flow)的可微推理模型。欢迎点击文末阅读原文与作者交流。作者知乎地址:

https://www.zhihu.com/people/deepknower/activities

内推职位:

公司:Hulu

城市:北京

职位:算法工程师/高级研究员/研究员

邮箱:xiaoran.xu@hulu.com

详细职位方向见下图:

——END——

DataFun算法交流群欢迎您的加入,感兴趣的小伙伴欢迎加管理员微信:


文章推荐:

Sophon :Hulu智能OLAP缓存层技术实践

「回顾」Content understanding in Hulu

「回顾」强化学习:原理与应用

本文配套PPT:

请关注社区公众号,后台回复【hulu

关于社区:

DataFun定位于最实用的数据智能社区,主要形式为线下的深度沙龙、线上的内容整理。希望将工业界专家在各自场景下的实践经验,通过DataFun的平台传播和扩散,对即将或已经开始相关尝试的同学有启发和借鉴。

DataFun的愿景是:为大数据、人工智能从业者和爱好者打造一个分享、交流、学习、成长的平台,让数据科学领域的知识和经验更好的传播和落地产生价值。

DataFun社区成立至今,已经成功在全国范围内举办数十场线下技术沙龙,有近俩百位的业内专家参与分享,聚集了万余大数据、算法相关领域从业者。

看官点下「好看」再走呗!👇

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存